2025年9月17日中文

了解 Python Hypothesis 库的基于属性的测试。超越基于示例的测试，发现边界情况，构建更健壮、更可靠的软件。

超越单元测试：深入剖析基于属性的测试与 Python Hypothesis

在软件开发领域，测试是质量的基石。几十年来，主流的范式一直是基于示例的测试 (example-based testing)。我们精心设计输入，定义预期输出，并编写断言来验证我们的代码是否按计划运行。这种方法在 unittest 和 pytest 等框架中得到体现，它功能强大且至关重要。但如果我告诉你，还有一种互补的方法，可以揭示你从未想过去寻找的 bug 呢？

欢迎来到基于属性的测试 (property-based testing) 的世界，这是一种将焦点从测试特定示例转移到验证代码通用属性的范式。在 Python 生态系统中，这种方法的无可争议的王者是一个名为 Hypothesis 的库。

本综合指南将带你从一个完全的初学者成长为一名自信的 Hypothesis 基于属性的测试实践者。我们将探讨核心概念，深入研究实际示例，并学习如何将这个强大的工具集成到你的日常开发工作流中，以构建更健壮、更可靠、更能抵御 bug 的软件。

什么是基于属性的测试？一种思维转变

要理解 Hypothesis，我们首先需要掌握基于属性的测试的基本思想。让我们将其与我们都熟悉的传统基于示例的测试进行比较。

基于示例的测试：熟悉的路径

想象一下，你编写了一个自定义的排序函数 my_sort()。使用基于示例的测试，你的思维过程会是这样的：

“让我们用一个简单的有序列表来测试。” -> assert my_sort([1, 2, 3]) == [1, 2, 3]
“逆序列表怎么样？” -> assert my_sort([3, 2, 1]) == [1, 2, 3]
“空列表呢？” -> assert my_sort([]) == []
“包含重复元素的列表？” -> assert my_sort([5, 1, 5, 2]) == [1, 2, 5, 5]
“还有包含负数的列表？” -> assert my_sort([-1, -5, 0]) == [-5, -1, 0]

这很有效，但它有一个根本的局限性：你只测试了你能想到的情况。你的测试的好坏取决于你的想象力。你可能会错过涉及非常大的数字、浮点数不精确、特定的 unicode 字符或导致意外行为的复杂数据组合的边界情况。

基于属性的测试：用不变量思考

基于属性的测试则反其道而行之。你不是提供具体的示例，而是定义函数的属性 (properties) 或不变量 (invariants)——这些规则应该对任何有效的输入都成立。对于我们的 my_sort() 函数，这些属性可能是：

输出是有序的：对于任何数字列表，输出列表中的每个元素都小于或等于其后的元素。
输出包含与输入相同的元素：排序后的列表只是原始列表的一个排列；没有元素被添加或丢失。
函数是幂等的：对一个已经排序的列表进行排序不应该改变它。也就是说，my_sort(my_sort(some_list)) == my_sort(some_list)。

通过这种方法，你不是在编写测试数据，而是在编写规则。然后，你让像 Hypothesis 这样的框架生成成百上千个随机、多样且通常很刁钻的输入，试图证明你的属性是错误的。如果它找到了一个破坏属性的输入，它就找到了一个 bug。

Hypothesis 介绍：你的自动化测试数据生成器

Hypothesis 是 Python 首屈一指的基于属性的测试库。它接受你定义的属性，并努力生成测试数据来挑战它们。它不仅仅是一个随机数据生成器；它是一个旨在高效发现 bug 的智能而强大的工具。

Hypothesis 的主要特性

自动生成测试用例：你定义所需数据的形态（例如，“一个整数列表”、“一个只包含字母的字符串”、“一个未来的日期时间”），Hypothesis 会生成符合该形态的各种各样的示例。
智能收缩 (Intelligent Shrinking)：这是一个神奇的功能。当 Hypothesis 找到一个失败的测试用例时（例如，一个由50个复数组成的列表导致你的排序函数崩溃），它不仅仅报告那个庞大的列表。它会智能地、自动地简化输入，以找到导致失败的尽可能小的示例。它可能不会报告一个50个元素的列表，而是报告失败仅仅由 [inf, nan] 引起。这使得调试变得异常快速和高效。
无缝集成：Hypothesis 与 pytest 和 unittest 等流行的测试框架完美集成。你可以在现有的基于示例的测试旁边添加基于属性的测试，而无需改变你的工作流程。
丰富的策略库：它带有一个庞大的内置“策略”集合，用于生成从简单的整数和字符串到复杂的嵌套数据结构、带时区的日期时间，甚至是 NumPy 数组的所有内容。
有状态测试：对于更复杂的系统，Hypothesis 可以测试一系列操作，以发现在状态转换中的 bug，而这对于基于示例的测试来说是出了名的困难。

入门：你的第一个 Hypothesis 测试

让我们动手实践一下。理解 Hypothesis 的最好方法是看它的实际应用。

安装

首先，你需要安装 Hypothesis 和你选择的测试运行器（我们将使用 pytest）。非常简单：

pip install pytest hypothesis

一个简单的例子：绝对值函数

让我们看一个简单的函数，它应该计算一个数的绝对值。一个稍微有 bug 的实现可能看起来像这样：

# 在一个名为 `my_math.py` 的文件中
def custom_abs(x):
    """一个自定义的绝对值函数实现。"""
    if x < 0:
        return -x
    return x

现在，让我们编写一个测试文件，test_my_math.py。首先，是传统的 pytest 方法：

# test_my_math.py (基于示例)
def test_abs_positive():
    assert custom_abs(5) == 5

def test_abs_negative():
    assert custom_abs(-5) == 5

def test_abs_zero():
    assert custom_abs(0) == 0

这些测试都通过了。根据这些示例，我们的函数看起来是正确的。但是现在，让我们用 Hypothesis 编写一个基于属性的测试。绝对值函数的一个核心属性是什么？结果永远不应该是负数。

# test_my_math.py (使用 Hypothesis 基于属性的测试)
from hypothesis import given
from hypothesis import strategies as st

from my_math import custom_abs

@given(st.integers())
def test_abs_property_is_non_negative(x):
    """属性：任何整数的绝对值总是 >= 0。"""
    assert custom_abs(x) >= 0

让我们来分解一下：

from hypothesis import given, strategies as st: 我们导入必要的组件。given 是一个装饰器，它将一个常规的测试函数变成一个基于属性的测试。strategies 是我们找到数据生成器的模块。
@given(st.integers()): 这是测试的核心。@given 装饰器告诉 Hypothesis 多次运行这个测试函数。对于每次运行，它将使用提供的策略 st.integers() 生成一个值，并将其作为参数 x 传递给我们的测试函数。
assert custom_abs(x) >= 0: 这是我们的属性。我们断言，无论 Hypothesis 构造出什么样的整数 x，我们函数的结果必须大于或等于零。

当你用 pytest 运行它时，它很可能会对许多值通过测试。Hypothesis 会尝试 0, -1, 1, 大的正数，大的负数等等。我们简单的函数能正确处理所有这些情况。现在，让我们尝试一个不同的策略，看看是否能找到一个弱点。

# 让我们用浮点数测试
@given(st.floats())
def test_abs_floats_property(x):
    assert custom_abs(x) >= 0

如果你运行这个测试，Hypothesis 会很快找到一个失败的用例！

Falsifying example: test_abs_floats_property(x=nan)
... 
assert custom_abs(nan) >= 0
AssertionError: assert nan >= 0

Hypothesis 发现我们的函数在给定 float('nan') (Not a Number) 时，返回 nan。断言 nan >= 0 是 false。我们刚刚发现了一个我们很可能不会想到去手动测试的细微 bug。我们可以修复我们的函数来处理这种情况，也许通过抛出 ValueError 或返回一个特定的值。

更好的是，如果 bug 是由一个非常特定的浮点数引起的呢？Hypothesis 的收缩器会把一个大的、复杂的失败数字简化为仍然能触发 bug 的最简单的版本。

策略的力量：打造你的测试数据

策略是 Hypothesis 的核心。它们是生成数据的配方。该库包含了大量内置策略，你可以组合和定制它们来生成几乎任何你能想象到的数据结构。

常见的内置策略

数值型：
- st.integers(min_value=0, max_value=1000): 生成整数，可选地在特定范围内。
- st.floats(min_value=0.0, max_value=1.0, allow_nan=False, allow_infinity=False): 生成浮点数，可以精细控制特殊值。
- st.fractions(), st.decimals()
文本型：
- st.text(min_size=1, max_size=50): 生成特定长度的 unicode 字符串。
- st.text(alphabet='abcdef0123456789'): 从特定字符集生成字符串（例如，用于十六进制代码）。
- st.characters(): 生成单个字符。
集合型：
- st.lists(st.integers(), min_size=1): 生成列表，其中每个元素都是整数。注意我们如何将另一个策略作为参数传递！这被称为组合。
- st.tuples(st.text(), st.booleans()): 生成具有固定结构的元组。
- st.sets(st.integers())
- st.dictionaries(keys=st.text(), values=st.integers()): 生成具有指定键和值类型的字典。
时间型：
- st.dates(), st.times(), st.datetimes(), st.timedeltas()。这些可以设置为时区感知。
其他：
- st.booleans(): 生成 True 或 False。
- st.just('constant_value'): 总是生成同一个值。用于组合复杂策略。
- st.one_of(st.integers(), st.text()): 从提供的策略之一中生成一个值。
- st.none(): 只生成 None。

组合与转换策略

Hypothesis 的真正威力来自于它能从简单的策略构建出复杂的策略。

使用 `.map()`

.map() 方法让你能从一个策略中取值并将其转换为其他东西。这非常适合创建自定义类的对象。

# 一个简单的数据类
from dataclasses import dataclass

@dataclass
class User:
    user_id: int
    username: str

# 一个生成 User 对象的策略
user_strategy = st.builds(
    User,
    user_id=st.integers(min_value=1),
    username=st.text(min_size=3, alphabet='abcdefghijklmnopqrstuvwxyz')
)

@given(user=user_strategy)
def test_user_creation(user):
    assert isinstance(user, User)
    assert user.user_id > 0
    assert user.username.isalpha()

使用 `.filter()` 和 `assume()`

有时你需要拒绝某些生成的值。例如，你可能需要一个总和不为零的整数列表。你可以使用 .filter()：

st.lists(st.integers()).filter(lambda x: sum(x) != 0)

然而，使用 .filter() 可能效率低下。如果条件经常为 false，Hypothesis 可能会花费很长时间来生成一个有效的示例。一个更好的方法通常是在你的测试函数内部使用 assume()：

from hypothesis import assume

@given(st.lists(st.integers()))
def test_something_with_non_zero_sum_list(numbers):
    assume(sum(numbers) != 0)
    # ... 你的测试逻辑在这里 ...

assume() 告诉 Hypothesis：“如果这个条件不满足，就丢弃这个示例，再试一个新的。” 这是一种更直接、通常性能更好的约束测试数据的方式。

使用 `st.composite()`

对于一个生成值依赖于另一个的真正复杂的数据生成，st.composite() 是你需要的工具。它允许你编写一个函数，该函数接受一个特殊的 draw 函数作为参数，你可以用它来一步步地从其他策略中提取值。

一个经典的例子是生成一个列表和该列表的一个有效索引。

@st.composite
def list_and_index(draw):
    # 首先，抽取一个非空列表
    my_list = draw(st.lists(st.integers(), min_size=1))
    # 然后，抽取一个保证对该列表有效的索引
    index = draw(st.integers(min_value=0, max_value=len(my_list) - 1))
    return (my_list, index)

@given(data=list_and_index())
def test_list_access(data):
    my_list, index = data
    # 由于我们构建策略的方式，这里的访问保证是安全的
    element = my_list[index]
    assert element is not None # 一个简单的断言

Hypothesis 实战：真实世界场景

让我们将这些概念应用到软件开发者每天面对的更现实的问题上。

场景 1：测试数据序列化函数

想象一个函数，它将用户个人资料（一个字典）序列化为一个 URL 安全的字符串，另一个函数将其反序列化。一个关键属性是这个过程应该是完全可逆的。

import json
import base64

def serialize_profile(data: dict) -> str:
    """将字典序列化为 URL 安全的 base64 字符串。"""
    json_string = json.dumps(data)
    return base64.urlsafe_b64encode(json_string.encode('utf-8')).decode('utf-8')

def deserialize_profile(encoded_str: str) -> dict:
    """将字符串反序列化回字典。"""
    json_string = base64.urlsafe_b64decode(encoded_str.encode('utf-8')).decode('utf-8')
    return json.loads(json_string)

# 现在是测试
# 我们需要一个能生成 JSON 兼容字典的策略
json_dictionaries = st.dictionaries(
    keys=st.text(),
    values=st.recursive(st.none() | st.booleans() | st.floats(allow_nan=False) | st.text(),
                      lambda children: st.lists(children) | st.dictionaries(st.text(), children),
                      max_leaves=10)
)

@given(profile=json_dictionaries)
def test_serialization_roundtrip(profile):
    """属性：反序列化一个编码后的个人资料应该返回原始的个人资料。"""
    encoded = serialize_profile(profile)
    decoded = deserialize_profile(encoded)
    assert profile == decoded

这一个测试将用大量各种各样的数据来锤炼我们的函数：空字典、带有嵌套列表的字典、带有 unicode 字符的字典、带有奇怪键的字典等等。这比手动编写几个示例要彻底得多。

场景 2：测试排序算法

让我们回到排序的例子。以下是你如何测试我们之前定义的属性。

from collections import Counter

def my_buggy_sort(numbers):
    # 让我们引入一个微妙的 bug：它会丢弃重复项
    return sorted(list(set(numbers)))

@given(st.lists(st.integers()))
def test_sorting_properties(numbers):
    sorted_list = my_buggy_sort(numbers)

    # 属性 1：输出是有序的
    for i in range(len(sorted_list) - 1):
        assert sorted_list[i] <= sorted_list[i+1]

    # 属性 2：元素是相同的（这将找到 bug）
    assert Counter(numbers) == Counter(sorted_list)

    # 属性 3：函数是幂等的
    assert my_buggy_sort(sorted_list) == sorted_list

当你运行这个测试时，Hypothesis 会很快为属性 2 找到一个失败的示例，比如 numbers=[0, 0]。我们的函数返回 [0]，而 Counter([0, 0]) 不等于 Counter([0])。收缩器将确保失败的示例尽可能简单，使 bug 的原因一目了然。

场景 3：有状态测试

对于那些内部状态随时间变化的对象（如数据库连接、购物车或缓存），发现 bug 可能非常困难。可能需要一个特定的操作序列才能触发故障。Hypothesis 为此提供了 `RuleBasedStateMachine`。

想象一个简单的内存键值存储 API：

class SimpleKeyValueStore:
    def __init__(self):
        self._data = {}
    def set(self, key, value):
        self._data[key] = value
    def get(self, key):
        return self._data.get(key)
    def delete(self, key):
        if key in self._data:
            del self._data[key]
    def size(self):
        return len(self._data)

我们可以用状态机来为其行为建模并进行测试：

from hypothesis.stateful import RuleBasedStateMachine, rule, Bundle

class KeyValueStoreMachine(RuleBasedStateMachine):
    def __init__(self):
        super().__init__()
        self.model = {}
        self.sut = SimpleKeyValueStore()

    # Bundle() 用于在规则之间传递数据
    keys = Bundle('keys')

    @rule(target=keys, key=st.text(), value=st.integers())
    def set_key(self, key, value):
        self.model[key] = value
        self.sut.set(key, value)
        return key

    @rule(key=keys)
    def delete_key(self, key):
        del self.model[key]
        self.sut.delete(key)

    @rule(key=st.text())
    def get_key(self, key):
        model_val = self.model.get(key)
        sut_val = self.sut.get(key)
        assert model_val == sut_val

    @rule()
    def check_size(self):
        assert len(self.model) == self.sut.size()

# 要运行测试，你只需从状态机和 unittest.TestCase 继承
# 在 pytest 中，你可以简单地将测试赋值给状态机类
TestKeyValueStore = KeyValueStoreMachine.TestCase

现在 Hypothesis 将执行随机的 `set_key`、`delete_key`、`get_key` 和 `check_size` 操作序列，不懈地尝试找到一个导致某个断言失败的序列。它会检查获取一个已删除的键的行为是否正确，在多次设置和删除后大小是否一致，以及许多你可能不会想到去手动测试的场景。

最佳实践与高级技巧

示例数据库：Hypothesis 很聪明。当它发现一个 bug 时，它会将失败的示例保存在本地目录（.hypothesis/）中。下次你运行测试时，它会首先重播那个失败的示例，给你即时反馈，告知 bug 仍然存在。一旦你修复了它，该示例就不再被重播。
使用 @settings 控制测试执行：你可以使用 @settings 装饰器来控制测试运行的许多方面。你可以增加示例的数量，为单个示例的运行时间设置一个期限（以捕捉无限循环），并关闭某些健康检查。
```
@settings(max_examples=500, deadline=1000) # 运行 500 个示例，1 秒的期限
@given(...) ...
```
复现失败：每次 Hypothesis 运行都会打印一个种子值（例如，@reproduce_failure('version', 'seed')）。如果 CI 服务器发现一个你在本地无法复现的 bug，你可以使用这个装饰器和提供的种子来强制 Hypothesis 运行完全相同的示例序列。
与 CI/CD 集成：Hypothesis 非常适合任何持续集成流水线。它能在 bug 到达生产环境之前发现隐蔽的 bug，使其成为一个宝贵的安全网。

思维转变：用属性思考

采用 Hypothesis 不仅仅是学习一个新库；它是拥抱一种关于代码正确性的新思维方式。你不再问：“我应该测试哪些输入？”，而是开始问：“关于这段代码的普适真理是什么？”

这里有一些问题可以引导你识别属性：

是否有逆向操作？（例如，序列化/反序列化，加密/解密，压缩/解压缩）。属性是执行操作及其逆向操作应得到原始输入。
操作是否是幂等的？（例如，abs(abs(x)) == abs(x)）。多次应用函数应产生与应用一次相同的结果。
是否有另一种更简单的方法来计算相同的结果？你可以测试你复杂的、优化过的函数是否与一个简单的、明显正确的版本产生相同的输出（例如，将你花哨的排序与 Python 内置的 sorted() 进行比较）。
关于输出，什么应该永远是真的？（例如，`find_prime_factors` 函数的输出应只包含素数，并且它们的乘积应等于输入）。
状态是如何变化的？（对于有状态测试）在任何有效操作之后，必须维持哪些不变量？（例如，购物车中的商品数量永远不能为负）。

结论：信心的新高度

使用 Hypothesis 进行基于属性的测试并不能取代基于示例的测试。你仍然需要为关键的业务逻辑和已充分理解的需求编写特定的、手动的测试（例如，“来自 X 国的用户必须看到价格 Y”）。

Hypothesis 提供的是一种强大的、自动化的方式来探索代码的行为，并防范未预见的边界情况。它就像一个不知疲倦的伙伴，生成成千上万比任何人类实际能编写的更多样化、更刁钻的测试。通过定义代码的基本属性，你创建了一个健壮的规范，Hypothesis 可以据此进行测试，从而让你对你的软件产生新的信心。

下次你编写函数时，花点时间超越示例进行思考。问问自己：“规则是什么？什么必须永远为真？”然后，让 Hypothesis 去做尝试打破它们的艰苦工作。你会对它的发现感到惊讶，而你的代码也会因此变得更好。